Il presente documento è scritto in R Markdown. Markdown è una semplice sintassi di formattazione per la creazione di documenti HTML, PDF e MS Word. Questo documento è stato compilato usando Rstudio, il più diffuso IDE per R. Per maggiori dettagli sull’utilizzo di R Markdown, vedere http://rmarkdown.rstudio.com.
I dataset utilizzati provengono dalle banche dati Inps ed Istat, (open data e dataset pubblicati)
Per la scelta dei dati ho preso spunto da un report trovato sul vostro sito e dalla conoscenzad del settore.
I dati utilizzati non sono collegati al vostro studio ma hanno solo lo scopo di illustrare alcune possibilità di descrizione, analisi e visualizzazione dei dati tarmite R ed RStudio. Si tratta di dataset che presentano dati aggregati quindi non adatti per molti tipi di analisi. Il primo dataset preso in esame proviene dall’inps e contiene i dati sui Lavoratori in Italia per Territorio (Provincia e regione), classe di età , sesso posizione lavorativa e cittadinanza
## Questi i valori unici per Posizione lavorativa presenti nel dataset
## [1] "Artigiano" "Autonomo agricolo"
## [3] "Commerciante" "Dipendente privato"
## [5] "Domestico" "Operaio agricolo"
## [7] "Parasubordinato" "Voucher/Lavoro occasionale"
## [9] "Dipendente pubblico"
La tabella seguente riporta il numero totale di lavoratori calcolato per posizione lavorativa e cittadinanza con alcune statistiche di base sulla distribuzione dei dati originali
I singoli data point sono gli aggregati per provincia, anno, sesso, classe di età , posizione lavorativa e cittadinanza.
Per visualizzare questi dati ho deciso di usare un boxplot Vista la differenza anche notevole che può esserci fra province con grandi città e territorio scarsamente popolati ho trasformato i dati sull’asse delle x in logaritmi a base 10 per consentire una visualizzazione più agevole
## ### la successiva è una tabella più dettagliata ricavata dallo stesso dataset, dove sono state calcolate le percentuali rispetto alla cittadinanza con più variabili categoriche in cui dividere i dati, è possibile ordinarla e filtrarla
Nel dataset sono riportati i dati aggregati per territorio, una modalità di visualizzazione che può rendere evidenti le differenze consentendo di sovrapporre più variabili può essere una treemap
Dalla mappa si possono vedere immediatamente come varia il tipo di occupazione fra gli stranieri fra regioni
Il grafico successivo mostra attraverso la mappa d’italia divisa per provincie la percentuale di lavoratori stranieri sul totale dei lavoratori per gli anni dal 2014 al 2019 questo tipo di visualizzazione rende immediatamente evidente la variazione del dato negli anni
Il secondo dataset l’ho creato unendo i dati sui tassi di occupazione, attività e disoccupazione per sesso, cittadinanza e titolo di studio scaricati dalle banche dati Istat. I dati provengono da rilevazioni trimestrali dal 2016 al 2020 e sono riferiti a tutto il territorio nazionale.
In questa sezione abbozzo un analisi inferenziale seguendo i pattern individuati nei dati.
Il primo grafico mette a confronto il tasso di occupazione e quello di attività per sesso cittadinanza e titolo di studio.
Il grafico utilizzato è un grafico a dispersione
## si possono notare i dati raggruppati in piccoli cluster, la forma dei punti sul grafico corrisponde ai diversi titoli di studio che soprattutto per gli italiani corrispondono grossolanamente ai cluster visibili
## la prima indicazione che possiamo trarne è che per entrambi i gruppi il titolo di studio sembra una variabile che determina una differenza rispette alle altre due
## la seconda indicazione evidente è che la retta di regressione lineare degli italiani è più in alto rispetto a quella degli starnieri segnalando che apparentemente a parità di titolo di studio gli italiani sono occupati in misura maggiore rispetto agli stranieri
proviamo a verificare questa assunzione visualizzando la distribuzione del rapporto fra tasso di occupazione (occupati/tot popolazione) e tasso di attività (forza lavoro/tot popalazione). La nuova variabile esprime il rapporto fra occupati e forza lavoro, vediamolo nel dettaglio per titolo di studio, cittadinanza e sesso
Il grafico sembra confermare la prima impressione e nello stesso tempo mostra delle importanti differenze per titolo di studio. Il rapporto sembra essere fortemente a vantaggio degli italiani per chi possiede un titolo di studio più alto mentre per i titoli più bassi o nessun titolo la situazione è invertita. Per verificare se la differenza fra i valori medi delle distribuzioni è statisticamente significativa esguiremo Il test t di Student per ogni gruppo di titolo di studio mettendo a confronto italiani e starnieri
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = -6.5697, df = 68.621, p-value = 8.101e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06620229 -0.03535930
## sample estimates:
## mean of x mean of y
## 0.7768056 0.8275864
##
## [1] "licenza di scuola media"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 0.61011, df = 75.813, p-value = 0.5436
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.008672599 0.016331890
## sample estimates:
## mean of x mean of y
## 0.8520506 0.8482210
##
## [1] "diploma"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 7.9855, df = 65.485, p-value = 2.954e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.03121369 0.05202940
## sample estimates:
## mean of x mean of y
## 0.9012849 0.8596634
##
## [1] "laurea e post-laurea"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 8.389, df = 46.604, p-value = 7.185e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.04012501 0.06544758
## sample estimates:
## mean of x mean of y
## 0.9427899 0.8900036
Il test conferma per 3 gruppi su 4 che la differenza è significativa.
Proviamo infine a visualizzare il tasso di disoccupazione nel tempo rispetto alle due popolazioni considerate finora, sempre per titolo di studio, dovrebbe confermare quanto rilevato con l’analisi precedente. Il grafico è esplorabile in maniera interattiva
Infine allego due immagini tratti da lavori fatti come esempio sulle possibilità di utilizzo delle reti per l’analisi e la visualizzazione delle relazioni fra i dati
la prima mostra la relazione fra gli Item di un questionario, le zone evidenziate raffigurano le comunità indivduate con lo stesso algoritmo
La seconda immagine mette in relazione le parole ricorrenti in report istopatologici e come sono collegate fra loro, il peso delle relazioni è dato dal numero dei report in cui ricorrono i termini collegati
network VCG Liver